大会|回顾ACM Multimedia 2016

原创 2016-11-10 ACM Multimedia 微软研究院AI头条

ACMMM2016

当多媒体会议遇上多元化魅力阿姆斯特丹

会议简介

第24届ACM国际多媒体会议（ACM International Conference on Multimedia, 简称ACMMM）于2016年10月15日至19日在荷兰阿姆斯特丹隆重举行。阿姆斯特丹这个城市以富有包容力著称，拥有丰富的历史积淀和高度多样化的社群。今年ACM会议特地把主会场设在全球最美剧院之一，1921年开业的荷兰Pathé Tuschinski电影院。

自1993年首次召开以来，ACMMM每年召开一次，已经成为多媒体领域顶级会议，也是中国计算机学会推荐的A类国际学术会议，今年吸引了来自全球各地的学术界、工业界多媒体方向的570多名专家、学生以及从业者，前来展示自己的科学成果和工业创新产品。巧合的是，今年的欧洲顶级计算视觉会议，EuropeanConference on Computer Vision（简称ECCV），也选在10月8日至16日于阿姆斯特丹举行，两大会议同城相遇，大大促进了交流与合作。

ACMMM2016会议主会场，荷兰Pathé Tuschinski影院。它结合了新艺术年轻风、新艺术主义和装饰派艺术，被誉为全球最美剧院之一。

研究领域和热点

本次会议共收到248篇长论文和425篇短论文，最终录用了52篇长论文（接收率为22.2%）和127篇短论文（接收率为30.3%）。下图显示了15个不同研究领域的长、短论文投稿量。

从图中可见，多媒体与视觉（Multimedia and Vision）、多媒体搜索与推荐（Multimedia Search and Recommendation）和多媒体深度学习（Deep Learning for Multimedia）是投稿量最大的三个领域。

除此之外，多模态分析和描述（Multimodal Analysis and Description）也较为突出。

对于投稿量的领域分布，大会也进行了讨论，认为多媒体作为一个综合性强、包容性强的方向，鼓励不同领域的交叉融合，希望以后各个领域的投稿更加平衡，促进会议进一步全方面发展。

ACMMM2016会议长短论文投稿量统计

和去年一样，今年15个领域的文章被合并为4个主题，分别是系统（System）、体验（Experience）、理解（Understanding）和参与（Engagement）。

从下图可见，关键字video和image出现频率最高，证明它们就是多媒体领域最主要的数据形式。第二梯队的关键字networks、deep和learning，体现了神经网络与深度学习今年继续备受关注，而第三梯队的关键词recognition、detection和retrieval，则反映这三个多媒体方向的传统任务依然很有分量。

ACMMM2016会议论文关键字统计

在本届会议上，中国内地学者作为第一作者共发表了18篇长文、41篇短文，分别来自中国科学院、清华大学、北京大学、中国科学技术大学、中国人民大学、浙江大学等研究机构和高校。

今年ACMMM的最佳论文是中国科学院自动化研究所的钱胜胜、张天柱和徐常胜的"Multi-modal Multi-view Topic-opinion Mining for Social Event Analysis"，最佳学生论文是香港城市大学的Jingjing Chen和Chong-Wah Ngo的"Deep-based Ingredient Recognition for Cooking Recipe Retrieval"。

大会同时颁发了2016 ACM Transactions on Multimedia Computing, Communications and Applications (TOMM) Nicolas D. Georganas最佳论文奖给中国科学院自动化研究所的鲍秉坤、徐常胜等人，他们的论文题为“Cross-Platform Emerging Topic Detection and Elaboration from Multimedia Streams”。

特邀教程、教学报告和专题研讨会

大会前两天安排了内容丰富和多样的特邀教程、教学报告和专题研讨会。由于今年ACMMM与ECCV同在阿姆斯特丹举办，两大会议在10月15号邀请了11位在视觉和多媒体方向的著名研究人员和教授做特邀教程，主题包括图像分割与目标跟踪、视觉识别、人工智能、深度学习、人机交互等，都是视觉和多媒体的热门方向。

University of Central Florida的Mubarak Shah教授特意绕开深度学习，重点介绍他们在传统问题Segmentation and Tracking上的最新进展；与此同时，深度学习方向先驱之一、Montreal University的Yoshua Bengio教授深入浅出地做了题为“Fundamentals of Deep Learning”的报告，并指出了他认为的深度学习的未来挑战：无监督深度学习（Unsupervised Deep Learning）和增强学习（Reinforcement Learning）；Columbia University多媒体领域著名教授Shih-Fu Chang同时引用了ACMMM与ECCV的多篇文章，层层推进地介绍了视频事件（video events）分析的四个工作：事件的复杂性和多样性问题、人类判断关键证据（key evidences）的事件决策问题、事件概念发现（concept discovery）以及多模态事件的连接问题、事件在时域和空域的定位问题，同时指出一些开放性问题，比如探索多模态数据事件概念的关系、在穿戴式视频的事件检测等等；来自工业界的代表、微软亚洲研究院资深研究员梅涛将视觉的image和video数据，与语言的caption、comment、alignment和sentiment问题连接起来，介绍了深度学习在理解图片和视频的核心问题的应用（相关教学报告资料可以在这里下载：https://www.microsoft.com/en-us/research/publication/tutorial-bridging-video-language-deep-learning/）。

第二天，10月16号，两大会议还将教学报告和专题研讨会合并举行。这次ACMMM与ECCV共同举行的特邀教程、教学报告和专题研讨会，大大促进了来自视觉和多媒体方向的研究人员的热烈讨论和交流，场面也异常火爆。

为此，大会特意设置了一个深度学习的专家讨论项目，专家们分享了多媒体领域在深度学习中的角色与定位。他们认为，机器学习和多媒体领域各有特点，机器学习领域的研究员有更强的数学与统计背景，更擅长解决通用（general）的问题，并对所有的应用提出一个通用的解决方案。相比之下，多媒体领域的研究员更了解实际的数据，特别是多媒体的数据的结构与特性，同时，对于处理多源和多模态数据也有更多的经验与更好的方法。因此，在解决单个实际应用问题时，结合机器学习领域和多媒体领域两方面的经验与方法就变得很重要。

主题演讲与SIGMM奖项

今年主题演讲之一是计算社会学在数字世界的发展与机遇，ETH Zurich的Dirk Helbing教授用一系列的真实事例来呼吁相关研究人员采取行动，利用现在的数字革命来迎接新的数字社会的到来。另一个主题演讲是Eindhoven University of Technology的Jack van Wijk教授讨论了关于多媒体可视化的挑战与机遇。他介绍了数据可视化与视觉分析的趋势，并且展示了近年来多媒体数据分析的一些工作。

之后，ACM多媒体兴趣组（ACM Special Interest Group on Multimedia , SIGMM）颁发了2016年度杰出贡献奖（ACM SIGMM award for Outstanding Technical Contributions），获奖者是Alberto Del Bimbo教授，新星奖（ACM SIGMM Rising Star Award）由Bart Thomee博士获得，杰出博士毕业论文奖（ACM SIGMM Award for Outstanding Ph.D. Thesis）则被授予Christoph Kofler博士。

2016ACM SIGMM杰出贡献奖颁奖仪式

由左至右分别为Rainer Lienhart、Alberto Del Bimbo和Shih-Fu Chang

SIGMM事务会议和新星学术报告

在会议的最后一天召开了SIGMM事务会议，会议上总结了SIGMM在前一年的各项活动。除此之外，会议上还建议从2017年起，统一ACMMM会议的长文与短文（要求为同样长度：6至8页）以及评审过程。该提议已提交筹划指导委员会，在等待批准。同时，会议上也进行了2019年ACMMM大会的申办团队报告，最终是由法国尼斯团队取得主办权。

会议的最后一项是ACM SIGMM新星学术报告。报告邀请了6名新星SIGMM成员来分享他们的学术成果以及展望，并安排一名资深成员与他们讨论多媒体研究方向。值得一提的是，在这个报告中，中国人民大学李锡荣副教授分享了他的工作，题为“Tag Embedding for Multimedia Retrieval and Description”。

Microsoft Research的工作

作为ACM多媒体年会的长期赞助者，Microsoft Research（MSR，微软研究院）在这次年会上一如既往展现了其在多媒体领域的影响力。今年，来自雷德蒙的资深研究员张磊及其同事主办了图像识别大赛（MSR Image Recognition Challenge），他们提供了目前学术界最大的一个名人人脸数据库，包括10万个名人的1000万张图片。随着互联网刷脸时代开启，这一竞赛将对学术界和工业界产生深远的影响。来自亚洲研究院的资深研究员梅涛及其同事则主办了视频语言大赛（MSR Video to Language Challenge），提供了一个含有一万个视频和20万个自然语言的句子，其中每一个视频对应20种描述。由于视频描述逐渐成为学术界关注的一个前沿方向，这次竞赛吸引了来自12个国家的77个参赛队伍，其中22个队伍提交了最终结果。来自中国人民大学和卡内基梅隆大学的联合队，以及Aalto University分获Best Performance Award和Best Practice Award。

在本次大会上，来自微软亚洲研究院的研究团队以长文的方式展示了两个最新的研究成果。其中，“Share-and-Chat: Achieving Human-Level Video Commenting by Search and Multi-View Embedding”（相关报道链接：https://www.microsoft.com/en-us/research/publication/share-chat-achieving-human-level-video-commenting-search-multi-view-embedding/）一文提出了目前聊天机器人最重要的一个功能——视频聊天。微软研究院和中山大学联合培养的博士生李业豪同学在大会上描述了如何通过深度神经网络学习一种对视频的表达以及学习从视频内容到用户评论的最优embedding。中科院计算所的博士生吴波同学则报告了在社交网络中如何预测一张用户图片的流行度：大规模的实验表明，社交网络中图片的流行度与用户上载的时间和图片主题息息相关（相关报道含论文链接：https://www.microsoft.com/en-us/research/publication/time-matters-multi-scale-temporalization-social-media-popularity/）。

中山大学博士生李业豪同学在演示视频聊天技术

论文的三名共同作者（左起：梅涛、吴波、郑文皇）

在演示部分，来自微软亚洲研究院的王长虎博士展示了最新的图片描述技术，即给定一张图片，计算机自动生成一段用自然语言来描述图片内容的句子；同样来自微软亚洲研究院的姚霆博士则展示了如何针对实时传送的视频流产生文字描述和用户评论。

总结

多媒体计算的研究在近二十年不断壮大，热门方向有大规模图像视频分析、社会媒体研究、多模态人机交互、计算视觉、计算图像等等。若我们将ACM Multimedia主会（Main Conference）视为多媒体计算研究的前沿技术展示，那么，安排在本届大会最后的新星学术报告或许可以作为多媒体计算研究未来发展方向的一种探索和讨论。在新星学术报告中，过半的主题是与社会计算相关，从某种意义上来说，我们可以解读为，无论计算工具本身如何变化，多媒体计算研究的本质还是以人为中心。

多媒体计算作为一个贴近生活实际、包容并促进多学科合作的研究方向，研究人员将在其中不断探索出新的潜在应用、挖掘更多贴近实际的交叉学科研究问题，并将其影响力延伸到方方面面。与此同时，我们也发现，华人在多媒体方向扮演着越来越重要的角色，本届大会的最佳论文、最佳学生论文作者均为华人。

下一届ACM Multimedia选在美国硅谷这具有标志意义之地举行，也很让人期待，期待看到更多高科技+创造力的碰撞，闪出启迪智慧的火花。

作者简介

梅涛

微软亚洲研究院资深研究员

研究方向：多媒体分析和计算机视觉等

来自山东大学的甘甜教授和中央研究院的郑文皇博士亦对本文有所贡献。

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

微软小冰进驻微软研究院微信啦！快去主页和她聊聊天吧。

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

川普的成长秘辛：家庭和大学如何塑造一位“坚刚不可夺其志”的总统

不要成为戾气的受害者

常德悲剧：让谴责无差别杀戮之声更加响亮一点